# pmim-data/data/char_freq

汉字频率统计数据.

## 数据集 (2017)

来源: 使用爬虫随机抓取大量中文网页, 提取其中的中文文本 (原始语料), 并进行统计.

数据采集时间: 2017 年

文件:

- `2017_tgh8105.txt`

  `kTGHZ2013` 对应的汉字. 《通用规范汉字表》(2013) 收录的汉字.

- `2017_ascii.txt`

  ASCII 符号.

- `2017_d.txt`

  `kMandarin` 对应的其余高频汉字 (上面未收录).

- `2017_o.txt`

  其余高频字符.

数据格式 (`字符 频率`):

```
> head 2017_tgh8105.txt 
的 138649922
了 73980360
一 63292757
是 62174805
不 61723713
我 44083409
他 35889461
在 33064911
这 32170778
有 31576694
```

TODO
